# -*- coding: utf-8 -*-
'''
@Datetime: 2019/05/26
@author: Zhang Yafei
问题：python无法读取.doc文件

解决方案：利用python将大批.doc文件转化为.docx文件，再读写.docx文件

问题分析：python利用python-docx (0.8.6)库可以读取.docx文件或.txt文件，且一路畅通无阻，
而对.doc文件本身python是无能为力的，那有很多同学就不服气，我手动把.doc文件的后缀名改为.docx
或.txt不就解决问题了吗？答案是不能的，简单修改后缀名，那么文件就被你玩坏了，别说打不开，
就是打开也是天书啊（乱码）。python无法操作.doc文件是他的先天不足，但是我们不要钻牛角尖一定要在
互联网上找到一种源码直接读取.doc文件，一调用就好了，但是不幸的是，你可能在网上也找不到解决方案。
正当我一筹莫展之时，我将.doc文档利用手动的方式“另存为”.docx文档，就能够成功打开转化后的.docx文档，
于是我就尝试利用代码方式完成这个手动的“另存为”功能，问题得以解决。
'''
import sys
import pickle
import re
import  codecs
import string
import shutil
from win32com import client as wc
import docx
 
 
def doSaveAas(file, save_path):
    word = wc.Dispatch('Word.Application')
    doc = word.Documents.Open(file)        # 目标路径下的文件
    doc.SaveAs(save_path, 12, False, "", True, "", False, False, False, False)  # 转化后路径下的文件    
    doc.Close()
    word.Quit()
 

 if __name__ == "__main__":
    doSaveAas()
